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Теоретические основы выбора оптимального 
метода поиска в несбалансированном 
бинарном дереве 


Проведен теоретический анализ методов поиска для бинарных деревьев, предложена вероятностная 
модель движения по бинарному дереву, позволяющая определить лучший метод поиска; решена 
задача выбора оптимального метода поиска в бинарном дереве с учетом статистики обращений к его 
элементам. 


Введение 


С ростом требований к скорости выполнения задачи поиска и сортировки 
данных в интеллектуальных системах их разработчики все чаще используют для 
решения этой задачи различные древовидные структуры. В связи с чем возникают 
проблемы, связанные с понижением вычислительной сложности алгоритма поиска дан- 
ных, выбором оптимального метода поиска и балансировкой деревьев [1-4]. Данные 
проблемы достаточно важны, а их решения на данный момент не имеют серьезной 
теоретической основы и носят частный характер. 

Второй важной задачей в интеллектуальных системах есть задача выбора 
оптимального метода поиска с учетом статистики обращений к каждому элементу 
бинарного дерева, решение которой позволяет повысить интеллектуальность системы, 
применяющей его, и увеличить скорость выполнения задачи поиска. 

В данной работе предлагается теоретическая основа (методы теории 
вероятностей [5], [6]) для описания модели движения по бинарному дереву, которая 
позволяет решить задачу выбора оптимального метода поиска данных, а также 
задачу выбора оптимального метода поиска данных с учетом статистики обращений 
к каждому элементу бинарного дерева. Будет показана возможность применения 
данной модели к бинарному методу поиска, используемого в массивах. 


Выбор оптимального метода поиска 
в несбалансированном бинарном дереве на основе 
анализа его структуры 


Построение сбалансированного бинарного дерева — одна из важнейших задач, 
решение которой позволяет применять методы поиска с большей эффективностью. Но ее 
решение связано с трудностями, которые приводят к болыпому количеству вычислитель- 
ных затрат. Поэтому возникает задача поиска данных в несбалансированном бинарном 
дереве с наименьшими затратами, в частности с минимальным количеством сравнений. 
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Классическая реализация алгоритма поиска в дереве выглядит следующим 


образом (рис. 1). 
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Рисунок 1 — Метод поиска в бинарном дереве зеагсв_ т_1гее1 


Проанализируем работу данного метода на различных топологиях несбалан- 
сированного бинарного дерева. Для случая, продемонстрированного на рис. 2а), метод 
зеагсй_ ш _{гее1 ведет себя как линейный поиск и тратит минимум сравнений, в сред- 
нем М№/2 сравнений для поиска. Это происходит благодаря тому, что работа алго- 
ритма начинается с условия проверки «<», что и определило успех. 


5. 


а) «лево- 6) «право- 
в лево» право» ее 


е . _- 
Рисунок 2 — Топологии несбалансированного бинарного дерева 
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Заметим, что для топологии а) проверка условия «>» вообще никогда не 
производится при поиске заведомо имеющегося элемента. 

Рассмотрим вариант, представленный на рис. 26). Для него метод зеагсй ш тее1 
ведет себя наихудшим образом, выполняя при этом максимум сравнений - в среднем 
их количество равно М. Данная ситуация происходит из-за того, что проверка «<» ни 
разу не срабатывает, что приводит к переходу на условие «>». 
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Рисунок 3 — Метод поиска в бинарном дереве зеагсв_т_фгее2 


Очевидно, что для случая 6) логично выполнять сначала проверку на «>», а 
затем на «<». С таким подходом получим метод зеагсн ш \тее?, который для 
топологии 6) даст в среднем №/2 сравнений. Для топологии а) метод зеагсн ш {тее2 
будет выполнять максимум сравнений. 

Таким образом, для каждой топологии лучше выбирать определенный метод. 
Заметим, что для достаточно сбалансированного дерева любой из этих методов 
будет иметь равные показатели. Худшим вариантом для методов зеагсв ш_ее1 и 
зеагсв ш {тее? является топология вида рис. 2в). Для нее методы выполняют в 
среднем порядка УМ сравнений. Таким образом, приходим к выводу, что для 
несбалансированных деревьев методы зеагсв шт _1тее| и зеагсВ ш ее? не подходят и 
требуется новый алгоритм, не имеющий этих недостатков. 

Для реализации такого метода понадобится циклический подход к решению 
задачи — поиск в одном направлении (только по левому поддереву или только по 
правому). Как только поиск по одному направлению невозможен, переходим на 
другое направление. Реализация метода представлена на рис. 4. 
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Рисунок 4 — Блок-схема алгоритма зеагсв_ т_гее пе\м 


Метод зеагсн ш_ее пе\у выполняет стабильно в среднем порядка №/2 сравне- 
ний для каждой топологии, представленных на рис. 2. Недостатком выступает то, 
что для деревьев, в которых «правые» элементы имеют одного «левого» сына или 
«левые» элементы имеют одного «правого» сына, скорость поиска данного метода 
значительно увеличивается. 
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Особенно наглядна эта ситуация на топологиях, представленных на рис. 5. 
В этих случаях происходит чередование движения — «влево-вправо», что приводит к 
среднему количеству сравнений для варианта 6) и в) — порядка М. 


а) 


55 


[6] «право-лево» в) «лево-право» 


Рисунок 5 — Топологии сбалансированного а), несбалансированного 6) 
ив) бинарного дерева 


Для варианта а) — сбалансированного дерева — порядок производимых сравнений 
тот же, как и для методов зеагсВ 11 1гее1 и зеагсв шт 1гее2, и соответствует порядку 02 М. 

Таким образом, для различных топологий имеем методы, работающие с разной 
эффективностью, и задача сводится к объединению этих методов для получения 
наилучшего результата. Очевидно, что такой метод должен учитывать статистические 
данные о дереве, каких топологий больше, и в соответствии с этой информацией 
выбирать наилучший метод. 

Для деревьев с доминированием топологии «право-лево» или «право-лево» 
лучше применять методы зеагсн ш ее] и зеагсь ш_\тее2, а при доминировании 
топологий «лево-лево» или «право-право» — метод зеагсв_ т _тее пе\’. Такой подход 
при решении задачи сортировки позволит уменышить количество сравнений без 
применения механизма балансировки деревьев. Недостаток метода — перед применением 
необходимо произвести просчет количества левых и правых сыновей или различных 
топологий. 


Вероятностная модель обхода бинарного 
несбалансированного дерева 


В рассуждениях, проведенных выше, не учитывалась особенность расположения 
элемента — чем выше он расположен и чем больше у него сыновей, тем чаще при 
поиске через него проходит путь к искомым данным. Рассмотрим вероятностную 
модель обхода несбалансированного бинарного дерева при поиске элемента. 
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Будем считать, что все элементы бинарного дерева различны (копий нет). 

Возьмем один элемент и рассмотрим его вероятностную модель переходов (рис. 6). 
На рис. 6 представлены: ру — вероятность попадания на элемент, р — вероятность того, 
что это искомый элемент, х — вероятность перехода по левой ветке, у — вероятность 
перехода по правой ветке. Тогда 


а 
о. 
где М — количество элементов поддерева 
Хх 
Хх == а . ру — р . 
х-+ у 
у=Ь.ру-р.—^ 
х-+ у 
где 
м 
а =, 
№1+ Мр 
_ _ № 
№М+Мр’ 


МГ - количество элементов левого поддерева, М№р — количество элементов 
правого поддерева (М + Мр = М). 
С учетом того, что р + х-+у= ру, получаем: 


х =а. (ру-р) 
у =Б. (ру-р). 


Рассмотрим общий случай. Пусть р;; — вероятность того, что ]-й элемент Его 
уровня является искомым, а ру;; — вероятность перехода на ]-Й элемент (1 + 1-го 
уровня. Тогда 


1 
р; = м РР 


где М количество элементов поддерева с вершиной у ]-го элемента 1-го уровня 


Е а-( РУ, 1, 6-02 Риз }» если ]- нечетное 
и = . 
Ь.( ру 1, 6402 — Р:б+02 ), если ]-четное 


Для каждого ]-го элемента 1-го уровня справедливо: 
ры + РУ 2-1 + рУы*2 = руна + 12, 
что обеспечивает охват всех возможных шагов. Сумма всех вероятностей р; равна 1, 
что позволяет всегда найти искомый элемент. 
На рис. 7 и 8 представлен наглядный пример, позволяющий рассчитать 
вероятность перехода по каждой «ветке». Данные вероятностей перехода позволяют 
оценить, какой из методов наиболее эффективен для поиска. Например, количество 


левых ветвей равно 5, а правых - 6, но использовать метод поиска зеагсп шт_\тее2, 
начинающийся с проверки на «>», не выгодно. 
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Сравним, что больше: вероятность движения влево или вправо. Сумма вероят- 
ностей перехода влево составляет 1,75, а вправо — 0,75. Количество сравнений для поиска 
всех элементов, произведенных методом зеагсВ ш ее], начинающимся с проверки на 
«<», составляет 63, а методом зеагсВ ш фтее2, начинающимся с проверки на «>», — 75. 


ру 


Рисунок 6 — Вероятностная модель переходов для одного элемента 
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р22= 1/2*ру1 2 
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Рисунок 7 — Вероятностная модель обхода несбалансированного бинарного дерева 
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Рисунок 8 — Вероятностная модель обхода несбалансированного бинарного дерева 
с расчетом вероятностей 


Итак, вероятностная модель обхода несбалансированного бинарного дерева 
обеспечила правильный ответ с учетом расположения элементов, количества их 
сыновей и элементов в поддереве. 

Таким образом, данная модель позволяет выбрать, с какого сравнения 
начать: «>» или с «<», что позволяет определить, какой алгоритм будет эффективнее: 
зеагсй ш_1гее] или зеагсй и {ее2, зеагсн шт {ее пе\у, начинающийся с проверки «>», 
или «<». 

Полученная модель может быть использована не только для выбора 
оптимального метода поиска, но и для задачи сортировки с применением 
бинарного дерева, а также служить основой для решения задачи поиска с 
использованием статистических особенностей - в частности количества обращения к 
каждому элементу дерева. 
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Решение задачи выбора оптимального метода поиска 
данных с учетом статистики обращений 
к каждому элементу 


Рассмотрим задачу выбора оптимального метода для поиска данных с заранее 
известными вероятностями обращения к каждому элементу и покажем, что данная 
задача может быть решена с помощью вероятностной модели движения по несбаланси- 
рованному бинарному дереву. 

Действительно, если рассматривать количество обращений к определенному 
элементу не как один элемент, а как количество элементов, то получаем задачу 
выбора оптимального метода поиска, которая решается с помощью вероятностной 
модели движения по несбалансированному бинарному дереву. 

Пусть ри; — вероятность того, что ]-й элемент 1-го уровня является искомым, а 
ру; — вероятность перехода на ]-й элемент (1+1)-го уровня. Тогда 


1 
Ре - асои М> 0, 


где М - количество элементов поддерева с вершиной у ]-го элемента 1-го уровня 


а. ( РУ, бр — Ри , 


если ]- не четное и М№М<>0 


ру; = Ь. ( РУ, _ 1, 6:12 Равно ) › 


если ]|-четное Мр<>0 


0, иначе. 
Для каждого ]-го элемента 1-го уровня справедливо: 


ри; + РУ 2-1 + рун = ру!-1,0+1 7, 


что обеспечивает охват всех возможных шагов. Сумма всех вероятностей р; равна 1, 
что позволяет всегда найти искомый элемент. 

Рассмотрим наглядный пример (рис. 9), позволяющий оценить вероятность пере- 
хода по каждой «ветке» с учетом количества обращений к каждому элементу (табл. 1). 


Таблица 1 — Количество обращений к каждому элементу 


№ элемента 1 И а Е В ОЕ 


О ее ее а аа ИЕ Пабе 
обращений 


Сравним, что больше вероятность движения влево или вправо. Сумма 
вероятностей перехода влево составляет 0,7894737 + 0,4736 + 0,1578 + 0,05263 = 
1,4736, а вправо = 0,2105263 + 0,1052 + 0,1578 + 0,3157 + 0,05263 + 0,05263 = 
0,89473. 
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Количество сравнений для поиска всех элементов с учетом статистики (табл. 1), 
произведенных методом зеагсй ш ее], начинающимся с проверки на «<», состав- 
ляет 100, а методом зеагсв_шт_1тее2, начинающимся с проверки на «>», — 111. 


рул = 1 


—^ 


р\у2= 4/19 *(руол — ра) 


ру = 15/19* (рубл ри) 


—. = 4/15* рул 


ру22= 2/11*(ру1л — р21) 


р22= 1/4*ру! 2 


рузл= 9/11 *(рутл — рэ.) 
рузд= 3/3*(р\12 — рэ2) 


рз2= 2/2*ру:2 АЛ, 


— 0/9* 
рза = 0/9*рузл рзл= 3/3* руд 


рузи = 3/9*(ру>1 — рз1) 
м м 


руз2= 6/9*(руз1 — рз1) 
ра. = 1/3*рузл 


ра2= 5/6*руз2 


руд = 1/2*(рузл ру4 = 1/2*(руз/ — ра) 


р51=1/1* рул р52= 1/1* ру42 


рудд= 1/1*(руз2 — рл2) 
р54=1/1* руда 
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МОЕ МОЕ 
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МОЕ МОЕ 


Рисунок 9 — Вероятностная модель обхода несбалансированного бинарного дерева 
с учетом количества обращений к каждому элементу 


Таким образом, вероятностная модель обхода несбалансированного бинарного 


дерева обеспечила правильный ответ не только с учетом расположения элементов, 


количества их сыновей и элементов в поддереве, а и дополнительных статистических 


особенностей, в частности количества обращений к каждому элементу. 

Полученная модель может быть использована для выбора оптимального метода 
поиска, для задачи сортировки с применением бинарного дерева, а также служить 
основой для решения задачи выбора оптимального метода поиска с использованием 
статистических особенностей из класса бинарных алгоритмов, которые по принципу 
работы сходны с алгоритмами поиска в бинарных деревьях. 
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Выводы 


Разработаны методы поиска для бинарных деревьев с минимальным количеством 
сравнений. Предложена теоретическая основа — методы теории вероятностей — для 
описания модели обхода несбалансированного бинарного дерева, которая позволяет 
решить задачу выбора оптимального метода поиска данных, а также задачу выбора 
оптимального метода поиска данных с учетом статистики обращений к каждому 
элементу бинарного дерева. Показана возможность применения данной модели к 
бинарному методу поиска, используемого в массивах. 

В перспективе планируется анализ использования полученной модели для 
процесса балансировки деревьев, анализа графов. 

Полученные результаты позволяют увеличить скорость выполнения задачи 
поиска, а также повысить интеллектуальность системы, применяющей новые методы 
поиска и анализа данных. 
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С.С. Синельников 

'ТеоретичнЕ основи вибору оптимального методу пошуку в незбалансованому б1нарному дерев! 
У стати проведений теоретичний анал!з методв пошуку для б1нарних дерев; запропонована ймовфрнасна 
модель руху по б1нарному дереву, яка дозволяе визначити найкращий метод пошуку; розв’язана 
задача вибору оптимального методу пошуку в б1нарному дерев! з урахуванням статистики звернень 
до елементив. 
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